OpenAI 发布AI 模型 GPT-4o，语音对话很丝滑，还免费

Original all in on ai 梭哈AI

2024-11-27

OpenAI 欣然宣布推出旗下最新顶尖生成式 AI 模型——GPT-4o，“o”代表“omni”，凭借其Omni(全能)之名。该模型将逐步融入OpenAI各项产品中，让用户在未来几周内逐步感受其强大之处。最令人振奋的消息是，GPT-4o将向所有用户免费开放，让您尽情体验其卓越表现。

一系列新特征总结如下：

1. **多模态交互能力**：GPT-4o 能够处理文本、音频和图像的任意组合输入，并生成对应的任意组合输出，这使得它在交互上更为自然和灵活。

2. **快速响应**：GPT-4o 特别在音频交互方面表现出色，能够在极短的时间内（短至232毫秒）响应用户的语音输入，平均响应时间接近人类日常对话的反应时间。

3. **改进的视觉和音频理解**：与现有模型相比，GPT-4o 在视觉和音频理解方面有显著提升，特别是在非英语文本上的性能有了大幅提高。

4. **成本效益**：GPT-4o 的 API 速度快，速率限制高出5倍，而成本降低了50%，这使得它在商业应用上更具吸引力。

5. **免费提供**：OpenAI 宣布 GPT-4o 将免费提供给所有用户，尽管免费用户在使用量上有一定限制，但这一决策仍然具有里程碑意义。

6. **增强的语言支持**：GPT-4o 支持包括中文在内的20种语言进行音频等多模态交互，这扩大了其潜在用户群和应用场景。

7. **端到端的新模型**：GPT-4o 通过端到端训练，使得所有输入和输出都由同一神经网络处理，这提高了效率并减少了信息丢失。

8. **情感和语气识别**：GPT-4o 能够识别说话人的语气和情绪，并根据场景或指令生成带有丰富人类情绪特征的音频回复，甚至可以唱歌。

9. **图像处理能力**：GPT-4o 在图像处理方面也有显著提升，能够识别手写体、分析数据，并读懂画面中人物的面部表情。

10. **未来计划**：OpenAI 计划未来实现更自然、实时的语音对话，并通过实时视频与 ChatGPT 进行对话，同时还将推出具有新功能的语音模式。

11. **macOS 版应用**：发布了适用于 macOS 的新版 ChatGPT 桌面应用，简化了工作流程并提供了更直观的交互方式。

12. **新的用户界面**：OpenAI 为 ChatGPT 引入了新的外观和感觉，使得界面更加友好和具有对话性。

最后翻译一篇 sam 自己对GPT-4o的点评：

今天的公告中我想强调两件事情：

第一，我们使命的关键部分是免费（或以极低的价格）将非常强大的AI工具交到人们手中。我非常自豪，我们已将世界上最好的模型免费提供在ChatGPT中，没有广告或类似的东西。

我们最初成立OpenAI时的想法是，我们会创造AI，并利用它为世界创造各种好处。但现在看起来，我们会创造AI，然后其他人会用它来创造各种令人惊叹的东西，我们都将从中受益。

我们是一家商业公司，会找到很多可以收费的服务，这将帮助我们为（希望是）数十亿人提供免费、卓越的AI服务。

第二，新的语音（和视频）模式是我用过的最好的计算机界面。它感觉就像是电影中的AI；它仍然是真实的，这让我感到有点惊讶。达到人类的响应时间和表现力是一个巨大的变化。

最初的ChatGPT展示了语言界面可能的一小部分；这个新事物感觉截然不同。它快速、智能、有趣、自然、有帮助。

与计算机对话对我来说从未真正感到自然；现在它变得自然了。随着我们增加（可选的）个性化、访问您的信息、代表您采取行动等能力，我真的可以看到一个令人兴奋的未来，我们将能够使用计算机做比以往更多的事情。

最后，对那些投入大量工作使之成为现实的团队表示巨大的感谢！

博客原文：https://blog.samaltman.com/gpt-4o

继续滑动看下一个

梭哈AI

向上滑动看下一个